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。 研 究 方法 (Research Method) ° 


认 知 诊断 计算 机 化 自 适 应 测验 的 选 题 策略 


Bf’ EAD WAE A w 
(四川 师 范 大 学 教育 科学 学 院 ， 成 都 610066) EHTA, 四川 德阳 618000) 


摘 要 随 着 认 知 诊断 计算 机 化 自 适应 测验 (cognitive diagnostic computerized adaptive testing, CD-CAT) 理 论 
与 实践 的 发 展 ， 兼 顾 知识 状态 与 能 力 的 双 目 标 CD-CAT 逐渐 受到 重视 。 选 题 策略 是 CAT 的 核心 , 通过 杭 理 伟 
统 CD-CAT 和 双 目 标 CD-CAT 选 题 策略 的 研究 ， 并 对 它们 的 特点 、 关 系 及 表现 进行 介绍 和 评析 。 最 后 ， 基 于 
认 知 诊断 模型 与 CAT 实践 发 展 指出 未 来 应 加 强 一 般 化 认 知 模型 、 复 杂 测 验 条 件 认 知 诊断 模型 下 选 题 策略 的 研 
Z, 应 开发 双 目标 诊断 测验 的 项 目 和 测验 特征 指标 ; 还 应 加 强 非 参数 选 题 方法 和 CD-CAT 的 实践 应 用 研究 。 
关键 词 ”计算 机 化 自 适应 测验 ， 认 知 诊断 模型 ， 选 题 策略 ,测量 精度 ， 非 统计 约束 

分 类 号 ”B841 


1 引言 库 、 初 始 项 目的 选择 、 选 题 策略 、 能 力 估计 方法 
和 测验 终止 规则 几 个 重要 组 成 部 分 。 若 把 CAT 比 
作 一 台 机 器 ,那么 题库 便 是 物质 基础 ， 选 题 策略 
决定 CAT 的 运转 方式 ， 能力 估计 方 法 是 推动 力 ， 
终止 规则 就 是 停止 键 。 其 中 ， 选 题 策略 决定 了 单 
个 项 目 的 适 切 性 ， 也 决定 着 整个 测验 的 效率 和 测 
验 公平 , 还 是 影响 测验 成 本 和 测验 安全 的 重要 因 
素 。 于 是 ， 选 题 策略 成 为 CAT 研究 的 核心 内 容 之 
一 ,影响 着 CAT 未 来 发 展 的 方向 。 

起 初 ，CAT 仅 评估 被 试 宏观 的 单 维 (多 维 ) 连 
续 潜 在 特质 水 平 (9 ) 或 者 微观 离散 的 知识 状态 
(knowledge states, KS) (Qa )。 虽然 连续 潜在 特质 与 
离散 KS 代表 被 试 不 同 侧面 的 特征 , 但 它们 并 不 
相互 排斥 ,而 是 密切 联系 的 统一 体 。 因而 , CAT 中 
如 何 同时 评估 被 试 的 0 和 c 成 为 一 个 有 价值 的 研 
究 问 题 ， 推 动 了 兼顾 KS 和 能 力 的 双 目 标 CD-CAT 
(dual-objective CD-CAT) 的 研究 。 于 是 ， 本 文 首先 
系统 梳理 了 传统 CD-CAT (以 佑 计 被 试 KS 为 目的 
的 CDJCAT 和 和 到 由 村 CD-CAT See BFE HE 
展 。 然 后 ， 通 过 对 各 类 选 题 策略 的 特点 、 关 系 及 
表现 进行 介绍 和 评价 ， 以 期 把 握 其 发 展 脉络 和 趋 
势 。 最 后 ， 基 于 认 知 诊断 模型 与 CAT 实践 指出 未 
来 研究 的 几 个 方向 : 应 加 强 一 般 化 认 知 模型 、 复 


项 目 反 应 理论 (item response theory, IRT) 通 过 
分 析 项 目 反 应 数据 评估 被 试 连续 潜在 特质 (9 ) 水 
平 ， 常 用 于 比较 与 甄选 被 试 。 随 着 国内 、 外 教育 
改革 的 不 断 深 入 , 教育 质量 评估 要 求 加强 对 学 生 
学 习 过 程 的 形成 性 评价 ， 并 提供 详细 的 教学 指导 
信息 以 促进 教育 发 展 。 认 知 诊断 理论 (cognitive 
diagnostic theory, CDT) 在 教育 质量 评估 实践 中 应 
运 而 生 。 它 能 评估 被 试 对 特定 领域 知识 的 掌握 情 
况 、 加 工 技能 和 认 知 过 程 ， 还 能 为 被 试 进行 补救 
学 习 提供 个 性 化 的 帮助 。IRT 和 CDT 作为 现代 心 
理 与 教育 测量 理论 , 已 广泛 应 用 于 分 析 教 育 与 心 
理 测 验 数据 ， 并 成 为 计算 机 化 自 适 应 测验 
(computerized adaptive testing, CAT) 的 理论 基础 。 

CAT 是 一 种 新 型 测验 模式 , 实现 了 测验 的 量 
体裁 衣 。 与 传统 纸 笔 测 验 相 比 ， 它 在 获得 相似 测 
量 精度 的 条 件 下 既 能 保证 测验 效 度 、 测 验 公 平和 
测验 安全 ,还 缩短 了 测验 长 度 和 测验 时 间 ， 进 而 
提高 测验 效率 (Cheng，2009)。CAT 自 提出 以 来 就 
倍 受 研 究 者 和 教育 实践 者 的 广泛 关注 。 它 包括 题 
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应 加 强 非 参数 先是 方法 和 CD-CAT 的 实践 研究 。 ,ypwil -X Pe IXO PWKL G 
FN KL 和 了 分 别 表示 测验 考察 的 属性 加 p OO PG 


个 数 、 测 验 长 度 和 已 施 测 项 目 数 ， 友 ,i,…, 记 } 与 
Xp = (px xr) 代表 已 施 测 项 目 及 反应 ，R 与 
Ry =R] {isiy ip} 表示 题库 和 剩余 题库 ，a Aa 
分 别 表示 真实 的 和 当前 估计 的 KS。 另 外， 所 有 
KS 的 集合 为 Q={Q@,02…,0x}， 所 有 KS 对 的 
集合 为 Q6={(@,0,)|%,0,eQ} 。 Of, 的 子 集 
Qi1={(0,,0) | Auk £ Aks Aum = Am k {1,2,.…, K}, 
m#k} RINER — SE ERKA ENRE 
的 KS HRE. BA OQ, ={(@,0,)| 0 =4 
Q =0,YM £k, yyy = Ly, } FE Q WTE, MABE 
大 相关 。 


2 传统 CD-CAT 项 目 选择 策略 


测量 精度 是 CAT 的 首要 目标 , 但 CAT 又 不 能 
一 味 追 求 高 测量 精度 而 不 顾 一 些 非 统计 约束 条 件 ， 
如 内 容 约束 和 项 目 曝光 控制 ,因而 , CAT KAS, 
其 选 题 策略 的 研究 几乎 都 围绕 这 些 方面 展开 。 
21 提高 测量 精度 的 选 题 方法 

项 目 特征 与 被 试 KS 是 CAT 选 择 项 目的 依据 。 
近 二 十 年 来 , 研究 者 不 断 突破 传统 CAT 的 研究 思 
BR, 极 大 地 丰富 了 CD-CAT 选 题 策略 的 研究 。 总 
RE, 传统 CD-CAT 选 题 策略 沿 着 : 项 目 反 应 分 
布 、KS 后 验 分 布 和 结合 项 目 与 被 试 特征 视角 建构 
提高 测量 精度 的 选 题 指标 。 
2.1.1 基于 项 目 反应 分 布 的 信息 量 选 题 指标 

Kullback-Leibler (KL) 是 最 基础 的 选 题 指 标 。 
MH j 的 KL 信息 量 等 于 反应 分 布 P(x, â) 和 
P(x,|a,(e=1,2,-2") 的 KL 信息 量 之 和 ， 即 


2 
KL, = > KL; (â|) (Xu et al., 2003). 利用 KS 的 


c=1 
后 验 分 布 P(g.|X,) 对 KL 信息 加 权 就 得 到 后 验 
加 权 KL 信息 (posterior-weighted KL, PWKL), 


2 
PWKL, = 》 KL(Glq,)- Pla, |X,) 。 如 果 进 一 步 
c=1 


利用 海 明 距 离 h(a, ar.) OBR â 5 a, 的 相似 性 ， 便 


2 
得 到 HKL, = AG 
c=1 
称 为 混合 KL 信息 (the hybrid KL, HKL)。 最 后 ， 若 
PWKL 中 & 取 遍 所 有 可 能 情况 ， 就 是 修订 的 PWKL 


a.) P(a,|X,)-(h(a,a,)) ， 


KL, PWKL, HKL 和 MPWKL 均 选择 信息 量 
最 大 的 项 目 。 它 们 是 几 种 最 基础 和 常用 的 选 题 策 
略 。 研 究 表明 , PWKL 和 HKL 表现 类 似 ， 均 优 于 
KL 方法 (Cheng, 2009; Wang, 2013)。 与 PWKL 相 
比 , MPWKL 计算 更 复杂 ， 短 测验 测量 精度 更 高 。 
当 测 验 长 度 达 20 及 以 上 时 二 者 无 明显 差异 
(Kaplan et al., 2015)。 

2.12 ”基于 KS 后 验 分 布 的 信息 量 选 题 指标 

T K Mi (shannon entropy，SHE) 和 互信 息 
(mutual information, MI) 是 基于 KS 后 验 分 布 的 选 
题 方法 。 前 者 选择 使 预测 & 后 验 分 布 的 期 望 香农 
We AY H, 后 者 选择 使 Pax) 与 P(a| 
Xr,xri) 的 预测 KL 信息 最 大 的 项 目 (Zheng & 
Chang, 2016)。 换 言 之 ， 

SHE = 


1 
wap He | Xr) ==): Pl =x xn, a) 
d 
MI = vag Ý Py =x|X,)- 


ok 
DKLPC@, | Xr; = Pla o| (2) 


c=1 


Wang (2013) 指 出 在 大 多 数 情况 下 MI 方法 比 
PWKL, SHE 和 KL 的 测量 精度 更 高 。 由 于 SHE 
和 MI 方法 涉及 预测 反应 分 布 , 计算 比较 复杂 ,他 
将 MI 展开 并 进行 简化 得 到 简化 MI 方法 。 该 方法 计 

+ 更 简单 、 所 需 时 间 更 短 且 不 明显 降低 测量 精度 。 
2.1.3 ”结合 项 目 与 被 试 特征 的 选 题 指标 

认 知 诊断 模型 中 项 目 特征 包括 q 向 量 、 认 知 
诊断 区 分 度 (cognitive discrimination index, CDI) 
(Henson & Douglas, 2005)、 属 性 区 分 度 (attribute 
discrimination index, ADI) (Henson et al., 2008) 和 
广义 决定 性 输入 ， 噪 音 “ 与 ? 门 模型 (the generalized 
deterministic inputs, noisy “and” gate model, G-DINA) 
区 分 度 指 标 é (de la Torre & Chiu, 2016)， 被 试 特 
征 主 要 指 KS 的 后 验 概率 Pla, | Xr) (c=1,2,…， 
2°) 和 属性 掌握 概率 Play =1|Xp)(k =1,2,-+,K) o 

一 方面 , 基于 P(Q | X7) 与 项 目 q 向 量 建构 了 
二 分 法 (halving algorithm, HA) ( 汪 文 义 等 ,2014)， 
结合 Pla, |X) 5 E. CDI 和 ADI 提出 G-DINA 
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模型 区 分 度 指 标 (the G-DINA model discrimination 
index, GDD) 选 题 方 法 (Kaplan et al., 2015) 、 后 验 加 
权 CDI (posterior-weighted CDI, PWCDI) 和 后 验 加 
权 ADI (posterior-weighted ADI，PWADI) 方 法 
(Zheng & Chang, 2016), 分 别 见 式 (3)~(6)。 


| (3) 
JE 


DI = P X IP =1 = 
G vom (æ. | Xr) (x; |æ.) 


» P(a, | Xp) -0.5 


aa c 
cq; 7959 


HA =argmin | 
jeRr 


Qk 
> Pla, | Xp PC; =1| cor (4) 


c=1 


PWCDI = 
—1,-1 -1 
oO Maa) ) 2 Maa) P(Q, |X7) 


P(a,|X,)- KL, (a, || @,)}, (5) 
PWADI = argmax{(K -2*)'- 
JEAr 


$ Pea, | Xr): Pla, | Xr): KL; lio)}. (6) 
ON 


值得 注意 的 是 , MPWKL 是 所 有 KS 对 (œ) 
的 KL 信息 量 与 w, a, 后 验 概 率 乘 积 之 和 ,实质 
上 与 汪 文 义 等 (2014) 的 KLED 方法 等 价 。PWCDI 
本 质 上 是 对 MPWKL 各 项 取 加 权 平 均 , PWADI 则 
是 MPWKL 中 特定 项 的 平均 值 。 PWCDI 最 复杂 ， 
PWADI 最 简单 ,研究 发 现 它们 的 模式 判 准 率 无 明 
显 差异 (Zheng & Chang, 2016)。 

男 一 方面 , 项 目 与 被 试 特征 指标 还 常 作 为 权 
重 对 信息 量 加 权 构 建 选 题 指标 。 例 如 ， 郭 夭 等 
(2016) 运 用 CDI, ADI 对 PWKL 信息 量 加 权 得 到 
CDIPWKL 和 ADIPWKL 方法 ， 能 提高 PWKL 的 
测量 精度 。 又 如 ， 罗 照 戌 等 人 (2015) 利 用 边际 属性 


K 
掌握 概率 之 差 | Pay =11X7.2))— Play =11 XI 
kal 
对 PWKL 和 HKL 加 权 得 到 PPWKL 和 PHKL 方 
法 ,也 能 提高 PWKL 和 HKL 在 测量 精度 和 项 目 曝 
光 均 匀 的 综合 表现 。 此 外 ,研究 者 还 分 析 特 定 模 
型 的 项 目 特征 指标 ， 如 DINA 模型 的 项 目 鉴 别 力 
指数 :高 分 组 的 通过 率 (1 与 失误 参数 *) 之 差 ) 减 去 
低 分 组 通过 率 ( 猜 测 参数 g) )， 记 为 w =1-(s;+ 
gj) (Rupp et al., 2010)， 并 作为 DINA 模型 下 项 目 
信息 量 的 加 权 指 标 ( 郭 舌 等 , 2016)。 由 此 可 见 ， 除 


了 一 般 项 目 特征 指标 外 ,研究 特定 模型 下 的 项 目 
特征 也 具有 重要 意义 。 
2.2 ”属性 平衡 的 选 题 策略 

认 知 属性 是 诊断 测验 的 显著 特点 ， 也 是 最 小 
的 内 容 单元 。 平 衡 属性 考察 次 数 是 保证 测验 效 度 
的 关键 。 
2.2.1 最 大 优先 指标 (maximum priority index, 

MPDD) 方 法 
K 

最 大 优先 指标 MPI =| [Gi -b/m 结 
k=1 
合 了 属性 磊 的 目标 最 大 测量 次 数 妈 、 当 前 已 考察 
KÄ b, AI O EREJE q (Cheng, 2010)。 运 用 MPI 
对 项 目 信 息 量 加 权 选 题 可 以 提高 测量 精度 。 事 实 
E, (wi 一 B14) /ui 的 值 总 小 于 等 于 1。 于 是 ，MPI 的 
值 随 项 目 考 察 的 属性 增多 而 减 小 ， 并 倾向 于 选择 
考察 属性 较 少 的 项 目 ， 导 致 项 目 曝光 不 均匀 。 鉴 
于 此 ， 余 丹 等 人 (2011) 、 刘 舒畅 等 人 (2018) 、 孙 小 
坚 等 人 (2019) 对 MPI 进行 修订 ， 分 别提 出 MPL, = 


K K 
J [iea -b,)/u, +1" ~ MPL, = >》 u - By) /up 
k=1 k=1 


K 
mu oo fe cso 此 外 ， 刘 


k=1 


舒畅 等 人 (2018) 利 用 当前 (目标 ) 标 准 误 SE, ( SE gy ) 


K 
建立 了 MPI, = SUSE: —SEgx)/ SE pel 3 孙 小 
k=1 
坚 等 人 (2019) 还 将 Kuo 等 人 (2016) 针 对 测验 建构 
提出 的 平衡 属性 模式 的 权重 指标 RTA 用 于 满足 属 
性 的 最 少 测量 次 数 。 其 中 ，R74) = (1+ 1(T/ K)< 


了 

3)》 La; =g) 站 ,7() 为 指示 函数 ,gj M q, E 
t=1 

未 作答 和 已 作答 题目 的 qd 向 量 。 

刘 和 舒畅 等 人 (2018) 和 孙 小 坚 等 人 (2019) 系 统 
考察 了 各 个 优先 指标 与 CDIKL .PWKL .MPWKL 
和 MI 乘积 的 选 题 表 现 。 结果 一 致 表明 ， 改 进 的 优 
先 指 标 比 MPI 的 测量 精度 更 高 。 大 部 分 测验 条 件 
下 , MPL, 优 于 MPI, , MPI, 优 于 MPI,; MPI, 与 
MPI, 与 不 同 选 题 策略 结合 选 题 各 有 优势 。 一 般 而 
A, MPI, 较 MPI, 更 能 平衡 项 目 曝光 , 测量 精度 
稍 低 。 

2.2.2 ”基于 加 权 离 差 思 想 构建 的 选 题 方法 
Lin 和 Chang (2018) 借 鉴 加 权 离 差 模型 


x 八 、 
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(Swanson & Stocking, 1993), 建立 了 属性 偏差 指 Rj, €U(SWDKL, —(SWDKL, —a)/s, SWDKL; + (b- 
中 K K SWDKL,)/s) 。 研 究 表明 ，CP_SWDKL 能 显著 提 
标 WD, = >》 由- 让 -gj0+》 wl be - FH) ` 有 

= E 高 SWDKL 和 KL 的 项 目 上 曝光 均匀 性 , 但 也 在 一 定 


和 标准 化 加 权 属 性 偏差 指标 SWD,= 程度 上 降低 测量 精度 。 RME EVF, RT 和 RPG 方法 
Max(WD,)-WD, Sima 能 较 好 地 控制 项 目 曝光 率 并 提高 题库 利用 率 。 
Max(WD)) — MinWD,) > 以为 属性 的 权重 ，WD， 2.4 CD-CAT 选 题 策略 简 评 


只 计算 每 个 属性 与 其 上 、 下 界 的 正 离 差 的 加 权 和 。 PT AE A EE E E 
类 似 地 KL 可 标准 化 为 SKL = 建构 思路 对 传统 CD-CAT 的 选 题 策略 分 类 ( 见 表 
? J VER Be wy A ay 
KL,(G;)—Min(KL (G;,)) cs 1)。 对 选 题 策略 的 研究 ， 有 以 下 几 点 思考 。 第 一 : 
MKL ED MKL ED ETT OION 除 依据 KS 后 验 分 布 定义 香农 悄 和 互信 息 外 ,还 
可 以 运用 其 它 特征 变量 ,如 预测 反应 分 布 建立 香 
的 结果 ， 指 出 SWDKL 虽然 在 平衡 属性 测量 次数 。 eee niimee 
和 模式 判 准 率 方面 比 WDKL 表现 更 好 , 但 它们 的 TAAR, BEIT KS Je ODA 
项 目 曝 光 不 均匀 法 、 挖 掘 它们 的 关系 都 具有 重要 意义 。 第 二 ， 属 
sa MESSI ASE 性 偏差 指标 是 各 个 属性 测量 次 数 离 差 的 加 权 和 ， 
: ER 研究 者 沽 罕 了 优先 指标 是 各 个 属性 测量 次 数 离 差 与 目标 占 比 的 
J -从 EJOJ TE TA eh FLA AG AS P. 

7 H, — 实 A Fi) H 名 思 

传统 CAT Be til BU (A 7 2 (restrictive threshold, PERMA 者 实质 上 具有 相同 的 建构 


a a Sas 路 。 因 此 ， 基 于 属性 其 它 特 征 ， 如 测量 信息 量 离 差 
RT)、 限 制 进度 方法 (restrictive progressive, RPG), 建立 加 权 指 标 也 是 建构 选 题 方法 的 一 种 重要 思 
分 层 方法 和 最 大 优先 指标 的 表现 (Wang et as 。 路 。 第 三 ,加 权 先 题 方法 集中 在 对 反应 分 布 信息 


2011; EHH, FA, 2013), Lin 和 Chang (2018) 。 量 指标 的 加 权 ,研究 适合 其 它 基础 选 题 指标 的 加 


KL;( 记 为 WDKL) 和 SWD,.SKL;( 记 为 SWDKL) 


还 对 RPG 适当 变形 并 结合 SWDK 和 优先 指标 ， 提 权 方 法 也 是 未 来 有 价值 的 研究 问题 。 最 后 ,结合 
出 约束 渐进 的 SWDKL 方法 (the constrained 多 种 思路 的 方法 主要 解决 项 目 曝 光 不 均匀 间 题 
progressive SWDEL; nee 但 大 部 分 研究 局 限于 传统 CAT 的 思想 , 缺乏 系统 


cr swor (a= =| (1-2)r Pty] © 对 比 。 因 此 ， 基 于 认 知 诊断 测验 的 特点 发 展 结合 
7 多 种 思路 的 选 题 方法 是 今后 研究 的 重点 。 

CFinax 与 er 表示 要 求 的 最 大 曝光 率 和 项 目 /的 曝 传统 CAT (CD-CAT) 在 测验 结束 时 只 报告 

JER, s 是 调整 Rj 区 间 长 短 的 量 , 值 越 小 ， 区间 Ê (â ),。 兼 顾 Ks 和 能 力 的 双 目 标 CD-CAT 能 同时 


越 大 ， 选 题 越 随机 。 令 a=min{SWDKL,,j ERr} ~ Fiia M6, 引领 CD-CAT 的 发 展 方向 RAE 
bp=max{SWDKL;,jeRr} ， 随 机 数 R, €U(a,b) , 要 的 实践 价值 。 
表 1 传统 CD-CAT 选 题 策略 汇总 表 
分 类 标准 特点 具体 方法 适用 情景 
反应 分 布 信息 量 指标 KL, PWKL, HKL, MPWKL 
基础 选 题 指标 KS 后 验 分 布 信息 量 指标 SHE、 MI = 
车 于 项 目 、 被 试 特征 选 题 HA、GDI、PWCDI、PWADI ca 
基于 区 分 度 、KS 后 验 概 率 加 权 CDIPWKL 、ADIPWKL 、PPWKL PHKL 
加 权 选 题 方法 a aaa ae ia MPWKL 、MD 加 权 ; pe 
属性 偏差 指标 加 权 WDKL、 SWDKL 


结合 多 种 思路 ”运用 多 个 步骤 或 方法 RT, RPG, 分 层 方法 、 优 先 指标 法 、P-SWDKL 平衡 项 目 曝光 率 
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3 双 目 标 CD-CAT 的 项 目 选择 策略 


如 何 表征 项 目 关于 能 力 与 KS 的 信息 是 双 目 
ËR CD-CAT 选 题 策略 的 核心 , 也 是 区 别 于 传统 
CD-CAT 的 重要 特征 。 根 据 KS 与 能 力 信 息 量 的 结 
合 方式 ， 可 将 双 目 标 CD-CAT 的 选 题 方法 分 为 三 
类 : 两 阶段 选 题 法 、 信 息 量 加 权 平 均 方法 和 约束 
加 权 信 息 量 方法 。 
3.1 两 阶段 选 题 方 法 
两 阶段 选 题 方 法 包括 两 步 法 和 影子 测验 方 
法 ,首先 ， 两 步 法 在 传统 CAT (或 CD-CAT) 测 验 结 
束 时 利用 所 有 项 目的 反应 估计 a (或 2 )， 是 实现 
双 目 标 CD-CAT 最 直接 的 方法 。 其 次 ，CAT 中 影 
子 测验 方法 在 选 题 之 前 依据 一 定 标准 构造 影子 测 
验 ， 然 后 在 影子 测验 中 选择 最 优 项 目 ， 通 过 两 步 
选 题 为 实现 双 目 标 CD-CAT 提供 了 可 能 。 例 如 ， 
McGlohen 和 Chang (2008), 、 杜 宣 宣 (2010) 分 别 以 
Ô 和 @ 构 造影 子 测验 ， 然 后 分 别 选择 使 和 6 信 
息 量 最 大 的 项 目 。 
两 步 法 简单 易 行 ,但 仅 依据 a (或 9 ) 的 信 ， 
选 题 , 不 能 同时 保证 & 和 69 的 测量 精度 
(McGlohen & Chang, 2008)。 与 两 步 法 相 比 ， 影 
测验 方法 能 有 效 提 高 a 和 9 的 估计 精度 ,还 提高 
了 项 目 曝 光 均 匀 性 。 但 影子 测验 方法 也 是 将 g 和 
9 的 信息 独立 地 应 用 于 选 题 ,往往 只 能 优先 保证 
ao 的 估计 精度 。 因 此 , 4A a 和 9 的 信息 建 
立项 目 选择 指标 成 为 探索 双 目 标 CD-CAT 研究 的 
新 方向 。 
3.2 ”信息 量 加 权 平 均 方 法 
3.2.1 双 信 息 选 题 方法 (dual information, DI) 

Cheng(2007) 首 次 依据 PWKL,(â) 和 KL ,(0) 提 
出 项 目 7 的 DI 信息 量 指标 DI, =wPWKL,(â")+ 
(1-w)KL,(6") 。DI 方 法 结合 了 KS 和 能 力 估计 值 
的 信息 ,选择 使 DI 值 最 大 的 项 目 。 但 是 PWKL (a) 
和 KL, (6) 的 取 值 相 差 较 大 ， 后 者 对 DI 的 影响 很 
小 (Wang et al., 2014)。 于 是 ,将 它们 转换 到 相同 量 
表 再 加 权 平均 无 疑 是 一 种 更 合理 的 方法 。 
3.2.2 ”信息 量 统一 量 纲 加 权 平 均 方法 

百 分 等 级 、 标 准 化 转换 与 对 数值 转换 是 统 
计 学 上 常用 的 统一 量 纲 方法 。 鉴 于 此 ，Wang 等 
人 (2014) 提 出 先 对 PWKL(@) 和 PWKL(0) 进行 百 
分 等 级 ( pe[:] ) 或 标准 分 数 (s[]) 转 换 后 再 加 权 平 
均 ， 得 到 百 分 等 级 合成 法 (aggregate ranked 


et 


information method, ARI) 和 标准 差 合 成 法 
(aggregate standardized information method, ASI), 
即 : 
oT 
ARI , =argmax{w- pe[PWKL (a )]+ 
(1—w). pelPWKL (0")], j € Rr} (8) 


ASI , = argmax{w- s[PWKL (&")] + 
(1-w)-s[KL,(6")], j € Rr} (9) 
不 同 于 百 分 等 级 和 标准 化 思想 ，Dai 等 人 
(2016) 提 出 先 对 6 的 Fisher 信息 量 1,(6) 和 
SHE (@) 进行 对 数值 转换 ,然后 加 权 求 和 得 “ 带 有 
信息 量 的 有 序 度 ”(dapperness with information, 
DWD 选 题 指标 wlog(7,())- (wlog(SHE (6)) 。 
他 们 通过 模拟 研究 表 发 现 w 取 0.5 时 表现 最 佳 。 
FÆ, DWI 方法 便 简 化 为 选择 使 7(O /SHEi(O) 
最 大 的 项 目 。 研 究 表明 ，DWI 与 影子 测验 方法 相 
比 , 模式 判 准 率 相似 , 能力 佑 计 更 准确 。 
由 此 可 见 , ARI, ASI 与 DWI 都 基于 DI 方法 
对 G 和 0 的 信息 量 进行 量 纲 统一 转换 而 来 。ARI 
对 连续 信息 量 排序 获得 对 应 的 百 分 等 级 ， 在 一 定 
程度 上 导致 信息 丢失 ,上 且 容易 受 题库 大 小 的 影响 ; 
DWI 能 避免 题库 大 小 和 极端 值 对 选 题 的 影响 
(Zheng et al., 2018)。 总 体 上 讲 , 与 DI 方法 相 比 ， 
在 KS 和 能 力 估 计 方 面 , ARI 的 表现 更 差 , ASI 方 法 
更 优 ,DWI 方法 的 能 力 估计 精度 更 高 。 此 外 ,ASI 
和 ARI 方法 不 局 限于 PWKL 信息 量 。 例 如 , Kang 
等 人 (2017) 在 ASI 和 ARI 方法 中 运用 MPWKL 信 
息 量 后 分 别 得 到 MASI 和 MARI 方法 。 
3.2.3 ”Jensen-Shannon (JS) 距 离 选 题 方法 
根据 Lin (1991) 中 JS 距离 的 定义 , Kang 等 人 
(2017) 首 先 定义 加 权 分 布 g=wfz+(-w)f;， 然 
后 对 KLD) 与 KL(f; 上 e) 求 加 权 平 均 ， 进而 定 
义 项 目 j 的 JS 距离 如 下 : 
JS (fa || Ja) =WKL; Ca l2) +0- wKL, (A Ile). (10) 
JS 距离 满足 非 负 、 对 称 和 三 角 不 等 式 性 质 。 
WEF KL, MI 和 SHE， 还 可 以 定义 有 限 个 概率 
分 布 的 JS 距离 , 并 且 人 允许 根据 各 个 概率 分 布 的 重 
要 性 加 权 。 研 究 表明 , JS 方法 通过 选择 使 JS 距离 
最 大 的 项 目 ， 其 模式 判 准 率 明 显 高 于 ARI、ASI、 
MARI 和 MASI 方法 ,而 且 JS 方法 的 项 目 曝光 更 
均衡 , 计算 时 间 更 短 。 此 外 , Kang 等 人 (2017) 还 基 
于 香农 粹 定义 了 JS 距离， 并 研究 了 JS 距 离 与 互信 
息 、Fisher 信息 量 的 关系 。 


作 期 刊 


ChinaXiv 合 作 期 刊 


第 12 期 E fig 等 : 认 知 诊断 计算 机 化 自 适应 测验 的 选 题 策略 2165 


3.3 ”约束 加 权 信息 量 方法 

Wang 等 人 (2012) 和 Zheng 等 人 (2018) 都 指出 
双 目 标 CD-CAT 中 可 将 认 知 诊断 判 准 率 视 作 内 容 
约束 ， 分 别提 出 加 权 信 息 量 方法 和 信息 量 乘积 选 
题 方法 (information product approach, IPA), Wang 
等 人 (2012) 考 虑 到 优先 指标 MPI P q 作为 指数 导 
致 求 和 或 求 积 的 项 数 等 于 项 目 考察 的 属性 个 数 从 
而 带 来 不 可 比 问题 。 于 是 ,他 们 改变 gj 的 位 置 提 


K 
出 O 甜 阵 控制 指标 : R=] [GB 一 gn) /rl 
k=1 


[(L-h,)—(¢-b -9 4) /(L-4)) KL 信息 控制 指 


K 
标书 = Ve ~b,) SY KL@,,@,) J257 
k=1 Qu 

模型 O 区 分 控制 指标 己 =(1-s))(1 -gj)):B， 然后 
分 别 对 6 的 Fisher 信息 量 加 权 选 题 。 其 中 ， 是 
属性 的 目标 最 小 测量 次 数 。 与 如 和 忆 相 比 ， 马 
加 权 选 题 对 KS 和 9 的 估计 精度 都 最 高 (Wang 
et al.，2012)。 注 意 到 ， 除 已 仅 适用 于 DINA 模型 
外 ， 其它 优先 指标 可 用 于 任何 诊断 模型 。 由 此 ， 针 
对 特定 模型 提出 切合 模型 特点 的 指标 同样 具有 重 

IPA 方法 将 认 知 诊断 项 目 信 息 量 视 作 极 大 优 
先 指标 并 与 能 力 信 息 量 相 乘 而 得 。Zheng 等 人 
(2018) 考察 了 PWKL,(@)-KL,(6) 与 PWADI,- 
KL,(0) 的 选 题 表现 ， 指 出 IPA 方法 对 w 和 9 的 佑 
计 比 ASI 和 ARI 更 准确 ， 同 时 IPA 没有 权重 要 求 ， 
不 受 题库 和 极端 值 的 影响 。 特 别 地 ,，DWI 方法 中 
1/ SHE(@) 可 视 为 极 大 优先 指标 ， 从 而 DWI 方法 
也 是 一 种 IPA 方法 。 另 外 , 若 对 IPA 方法 取 对 数 
就 转换 为 信息 量 对 数 之 和 ， 即 log7P4= 
log PWKL(@) + log KL(6) ， 这 又 成 为 log PWKL(6) 


和 DINA 


ban! 


权 信 息 量 方法 是 三 类 双 目 标 CD-CAT 选 题 策略 ， 
UK 2。 首 先 ,两 阶段 选 题 方法 将 a 和 6 的 信息 量 
独立 地 应 用 于 选 题 。 于 是 , 将 测验 按 比例 分 成 多 
个 阶段 或 者 结合 两 者 信息 建构 影子 测验 都 可 能 提 
高 两 阶段 方法 选 题 表 现 。 其 次 , 信息 量 加 权 平 均 
方法 创新 性 地 将 a 和 9 的 信息 量 统 一 为 一 个 选 题 
tits, 但 二 者 取 值 相差 较 大 。 于 是 , 研究 者 一 方面 
运用 百 分 等 级 、 标 准 分 数 、 对 数 转换 改进 信息 量 
加 权 平 均 方 法 ， 另 一 方面 通过 对 cx 和 0 的 反应 分 
布 加 权 来 建立 JS 距离 选 题 方法 。 信 息 量 加 权 平 均 
方法 主要 运用 了 CD-CAT 中 常用 的 PWKL、KL 
和 SHE 选 题 指标 , 并 且 表 现 较 好 的 DWI, ARI 和 
JS 方 法 在 大 部 分 测验 条 件 下 对 KS 的 判 准 率 在 0.9 
左右 RMSE 在 0.4 左右 (Wang et al., 2014; Dai 
et al., 2016; Kang et al., 2017), 测量 精度 不 够 高 。 
因此 ,今后 还 应 考察 多 种 信息 量 指标 、 开 发 双 目 
标 CD-CAT 项 目 特征 指标 等 方式 研究 双 目 标 
CD-CAT 选 题 策略 ， 提 高 测量 精度 。 

注意 到 ， 权 重 是 信息 量 加 权 平 均 方 法 的 重要 
部 分 .通过 比较 0 到 1 之 间 多 个 权重 , Cheng(2007) 
指出 除 极端 权重 值 外 ,不 同 权 重 对 DI 方法 的 影响 
很 小 , Dai 等 人 (2016) 发 现 权重 为 0.5 时 , DWI 方 法 
表现 最 优 。Wang 等 人 (2014) 则 系统 对 比 了 三 类 权 
重 指标 。 第 一 ,理论 的 权重 ， 即 选择 第 :个 项 目 时 
权重 为 w=t/(L+D); 第 二 ,实证 的 权重 ， 即 基于 
累积 信息 量 mfl M 1 与 目标 信息 量 Inf, 和 
Inf. 的 差距 占 目标 信息 量 比重 ， 如 wp=w/ 
(m+w) (H P w= (nf, —Infg)/ Info, w= 
nfa- Inf.) / Inf.) ;第 三 ,通过 属性 的 权重 向 量 
(To To: Te) 与 属性 水 平 信息 量 向 量 的 数量 积 构 
造 属性 层面 的 权重 。 他 们 指出 , ASI 和 ARI 方法 中 


a 


All log KZ(O) 的 加 权 平 均 。 因 此 , IPA 在 一 定 程 度 上 具 
备 双 目标 CD-CAT 项 目 选择 方法 的 一 般 性 框架 。 

3.4 双 目 标 CD-CAT 选 题 策略 简 评 
两 阶段 方法 、 信 息 量 加 权 平 均 方 法 和 约束 加 


运用 理论 或 实证 权重 都 优 于 等 权重 。 理 论 权 重 适 
用 于 高 质量 题库 ， 实 证 权重 适用 于 信息 量 较 少 的 
题库 ， 属 性 层面 的 权重 则 适用 于 属性 具有 不 同 权 
重 的 情况 。 


表 2 ， 双 目标 CD-CAT 选 题 策略 汇总 表 


两 阶段 选 题 信息 量 加 权 平 均 约束 加 权 信息 量 
两 步 法 直接 加 权 平 均 : DI Q SRE KL 信息 控制 指标 加 权 : P- FÔ, P,-FI(6), PF1(6) 
统一 量 纲 : ASI, ARI, MASI, MARI, DWI 
影子 测验 方法 信息 量 乘 积 : IPA 


分 布 反应 加 权 : JS 
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再 次 ,约束 加 权 信 息 量 方法 可 以 视 作 CD- 
CAT 加 权 信 息 量 方法 的 扩展 。 特别 地 , IPA 方法 经 
对 数 转换 可 视 为 信息 量 加 权 平 均 方法 ， 而 加 权 平 
均 DWI 方法 又 可 视 为 IPA 方法 。 因 此 ，IPA 方法 
具有 双 目 标 CD-CAT 选 题 策略 的 一 般 性 框架 。 最 
后 ， 双 目标 CD-CAT 选 题 策略 集中 于 提高 测量 精 
度 的 研究 ， 而 项 目 曝光 均匀 性 和 内 容 约 束 相 比 于 
传统 CD-CAT 都 具有 新 的 特点 和 挑战 。 因 此 , 今 
后 可 以 借鉴 传统 CD-CAT 中 选 题 策略 的 思路 和 方 
法 ， 结 合 项 目 特征 KS 和 能 力 的 信息 建构 双 目 标 
CD-CAT 选 题 策略 ， 结 合 多 种 方法 研究 具有 非 统 
计 约 束 的 选 题 方法 。 


4 ”研究 展望 


CD-CAT 自 提 出 以 来 , 因 其 对 知识 结构 的 诊 
断 功 能 和 CAT 的 高 效 测验 模式 ， 得 到 研究 者 的 广 
泛 关 注 和 深入 研究 。 特 别 地 ， 针 对 CD-CAT 选 题 
的 测量 精度 、 项 目 曝光 和 内 容 约 束 问 题 ， 研 究 者 
不 仅 将 传统 CAT 的 选 题 策略 推广 到 CD-CAT, 还 
基于 认 知 诊断 测验 的 特征 发 展 了 独特 的 选 题 方 
法 ,不 仅 如 此 ， 随 着 研究 深入 和 实践 需要 ,兼顾 能 
HAKS 的 双 目 标 CD-CAT 也 得 到 广泛 关注 ,并 有 
大 量 研究 。 传 统 CD-CAT 和 双 目 标 CD-CAT 结合 
T IRT, CDT 和 CAT 的 理论 与 技术 。 它们 的 发 展 
与 测量 理论 的 研究 与 实践 、 计 算 机 技术 的 发 展 密 
切 相关 。 

首先 ， 近 20 年 来 认 知 诊断 模型 得 到 了 极 大 的 
丰富 和 发 展 ， 呈 现 出 从 单一 测验 条 件 到 复杂 测验 
条 件 ， 从 低 阶 到 高 阶 ,从 特殊 到 一 般 的 发 展 特 点 。 
一 方面 针对 二 级 评分 项 目 提出 了 一 般 化 G-DINA 
模型 。 它 在 一 定 约束 条 件 下 可 得 到 DINA, DINO, 
NIDA, NIDO, RUM 和 ACDM。 然 而 , 目前 
CD-CAT 研究 还 以 约束 化 认 知 诊断 模型 为 基础 ， 
以 DINA 模型 和 RUM 模型 为 主 。 因 此， 基于 一 
般 诊 断 模 型 研究 CD-CAT 具有 重要 意义 。 这 不 仅 
能 统一 不 同 模型 下 项 目 选择 和 能 力 估 计算 法 的 编 
码 过 程 ,还 有 利于 比较 它们 在 不 同 模型 下 的 表现 。 

另 一 方面 ， 认 知 诊断 模型 还 于 绕 G-DINA 和 
约束 化 诊断 模型 扩展 了 复杂 测验 条 件 模型 ， 如 多 
级 评分 、 属 性 多 级 和 高 阶 模型 。 当 前 CD-CAT 以 
二 级 评分 项 目 为 主 , 并 有 少量 多 级 评分 项 目的 研 
Ro TE, 探索 多 策略 、 属 性 多 级 评分 和 项 目 多 
级 评分 甚至 更 复杂 测验 条 件 下 CD-CAT 选 题 策略 


同样 是 今后 研究 的 重要 方向 。 

其 次 ，CD-CAT 中 结合 项 目 和 被 试 特征 是 改 
进 选 题 策 略 的 重要 思路 。 于 是 ， 针 对 双 目 标 
CD-CAT, 如 何 构建 表征 能 力 和 认 知 特征 的 项 目 
与 测验 特征 指标 ， 如 区 分 度 指 标 ; 如 何 基于 双 目 
标 认 知 诊断 测验 项 目 特征 构建 选 题 策略 都 是 具有 
意义 的 研究 问题 。 此 外 ， 目 前 的 选 题 方法 各 有 优 
势 与 不 足 ， 有 必要 探讨 它们 的 最 佳 组 合 模式 ， 加 
强 非 统计 约束 选 题 策略 的 研究 。 

最 后 ，CD-CAT 在 国内 实践 还 处 于 起 步 阶段 ， 
仅 2009~2011 年 教育 部 组 织 了 数学 和 英语 的 大 规 
模 CD-CAT 测试 (Liu et al., 2013)。 因 此 , 今后 有 
必要 研究 非 参 数 项 目 选择 方法 ， 既 可 用 于 小 规模 
课堂 诊断 实践 ,还 能 为 大 规模 实践 应 用 收集 数据 
做 准备 。 
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Abstract: Dual-objective cognitive diagnostic computerized adaptive testing (CD-CAT), which considers 
knowledge status and ability simultaneously, has become more and more popular with the theoretical and 
practical development of CD-CAT. Item selection methods play a key role in CD-CAT. This paper 
systematically reviews existing item selection methods on traditional and dual-objective CD-CAT, and 
summarizes the types, characteristics, relations, and performance of these methods. Furthermore, several 
future research directions were illustrated. First, it is necessary to study item selection strategy with general 
cognitive models and under complex test conditions. Second, it is important to develop indexes representing 
items and test characteristic of dual-objective diagnostic testing. Finally, it is meaningful to conduct 
research on non-parametric item selection methods and practical applications of CD-CAT. 

Key words: computerized adaptive testing, cognitive diagnostic model, item selective strategy, measurement 
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